Attention Is Not All You Need

您所在的位置：网站首页 › attention is not all you need › Attention Is Not All You Need

Attention Is Not All You Need

2024-01-21 15:53| 来源: 网络整理| 查看: 265

2017年的论文《Attention is All You Need》引入了基于注意力机制的 transformer 架构，标志着机器学习有史以来最大的突破之一。最近的一项研究提出了一种新的方法来研究自注意力（self-attention），它的偏置（bias）和秩崩溃（rank collapse）问题。

在自然语言处理(NLP)、语音识别以及最近的计算机视觉领域，基于注意力的结构已经被证明是改进机器学习应用的有效方法。但是关于 transformer 和注意力内部通用原理的研究很少。

在论文《Attention is Not All You Need: Pure Attention Loses Rank Doubly Exponentially with Depth》中，Google 和洛桑联邦理工学院的一个研究团队提出了一种新的方法，阐明了自注意力网络（SAN）的操作和归纳偏置，并发现纯粹注意力随着深度以双倍指数方式衰减。

研究人员总结他们的工作如下:

系统地研究了 transformer 的组成部分，揭示了自注意力和反作用力之间的对立影响: 跳过连接（skip connection）和 MLP，分别促进和防止了 transformer 的秩崩溃。提出了一种通过路径分解（path decomposition）分析 SAN 的新方法，将 SAN 表示为一个浅层网络的集合（ensemble）。在普通 transformer 结构上实验来验证理论。

研究小组首先研究了禁用了跳过连接和 MLP 的 SAN 结构。他们认为 SAN 是一个有向无环图（directed acyclic graph），每个节点对应一个自注意力头，定向边连接连续层的头。在此基础上，他们建立了一个路径分解（path decomposition）来把一个多头 SAN 的行为描述为简单单头网络的组合。通过路径相互作用，他们观察到偏置意义不大，而且每个路径迅速收敛到一个行相同的秩为1的矩阵。当路径以指数方式增加时，有趣的部分来了: 每个路径随后以双倍指数（doubly exponentially）方式退化，导致产生一个秩为1的输出。

研究人员分别考虑了每条路径的行为，检查了前向过程中的残差变化（residual changes）。他们发现残差范数（residual norm）收敛到零的速度惊人地快（以立方倍率）。由于注意力矩阵的秩也取决于输入的秩，所以确认的立方倍率收敛速度比预期的要快得多。换句话说，更深的 SAN 会导致级联效应（cascading effect）。

为了更深入地理解 SAN 的结构，研究小组通过加入 SAN 缺少的三个关键 transformer 组件（跳过连接、 MLP 和层归一化（normalization））来扩展他们的分析。这项研究表明，带有启用跳过连接的 SAN 严重依赖短路径，表现得像一个浅层单头自注意力网络的集合。研究小组还发现，MLP 会抵消收敛，比如，随着 MLP 变得更强大，收敛速度会变慢; 而层归一化并不能减轻秩的崩溃。

研究小组进行了以下实验:

实际架构中的秩崩溃，检查流行的 transformer 架构 BERT、 Albert 和 XLNet 的残差。可视化不同架构的偏置，研究单层 transformer 在循环应用于预测简单的 2D 循环序列时的行为。通过序列记忆、学习排序和凸包（Convex hull）预测三个任务检验路径效率与路径长度的关系。

实验1的结果。三种模型训练前后沿深度残差的相对范数。纯注意力(SAN)迅速收敛到一个秩为1的矩阵。添加 MLP 块和跳过连接得到一个 transformer。跳过连接在缓解秩崩溃(即零残差)方面起着关键作用。

实验2的结果。将训练好的单层 transformer 模块循环应用于增加隐藏维度(水平方向)和跨结构变量(垂直方向)的模型中。两条光背景路径显示了两条训练轨迹，起始点分别为(-0.3, 0)和(0.3, 0)

实验3的结果。报告了每个令牌标签的测试集预测精度作为评价指标。为了确定有多少表达能力可以归因于短路径和长路径，研究人员检查了不同长度的路径子集(而不是整个 SAN)的性能。

第一个实验证实，当跳过连接被删除时，所有网络都会出现快速秩崩溃，而第二个实验表明，添加 MLP 或跳过连接可以阻止或大大减缓秩崩溃。最后一个实验支持了研究人员的假设，即 SAN 的表达能力主要来自短路径。

arXiv 论文地址：https://arxiv.org/pdf/2103.03404.pdf

原文：https://medium.com/syncedreview/attention-is-not-all-you-need-google-epfl-study-reveals-huge-inductive-biases-in-self-attention-fa3cdd060abe

【本文地址】

Attention Is Not All You Need

Attention Is Not All You Need

今日新闻

推荐新闻